查看原文
其他

《2022年机器翻译评测报告》解读(上)

张湘悦 薛杰 译知科技 2024-04-14

点击译知科技 关注我们


近日,Intento公司与e2f公司合作发布《2022年机器翻译评测报告》,从9个行业领域、11个语言对评测了全球市场31个机器翻译引擎。该报告旨在对机器翻译供应商的机器翻译性能进行深入洞察和分析,为如何选择最适合的机器翻译引擎提供参考。


1


Intento和e2f介绍




(一)Intento公司


Intento公司,构建了一个下一代集成平台,支持评估和选择40多个机器翻译引擎,并将最适合的引擎(针对特定语言对和内容类型)连接到所有所需的业务系统和用例。
自2017年5月以来,Intento一直致力于评估机器翻译模型。Intento使全球企业能够在同一个机器翻译平台上多翻译20倍内容。借助Intento,企业还可以监测翻译性能以不断改善他们整个机器翻译程序。
Intento可以为全球公司提供选择、部署和改进最适合的机器翻译和其他认知人工智能服务,包括情感分析、语音合成、图像标记和光学字符识别。


(二)  e2f公司


e2f公司成立于2004年,帮助人们和机器不受语言、内容和文化限制,都能流畅地相互交流。e2f以其专有的技术栈提供世界一流的翻译和训练数据,用于翻译、质量审查和人工智能服务。
e2f主要提供以下服务:
  • 机器翻译检测和机器翻译质量评估服务,使企业能够监测供应商是否达到人工和机器翻译的品牌标准 。

  • 创建自定义Lingosets™,即扩充的多语言数据集,代表真实的人类对话。Lingosets可作为对话式人工智能部署的基准。

  • 提供黄金数据集和训练数据集,帮助领先的机器翻译供应商能够评估和微调引擎性能。


2


《2022年机器翻译评测报告》解读



(一)机器翻译类型分类



报告将所选机器翻译的类型进行了划分,包括通用领域、垂直领域、术语定制化、领域自适应和人工适应的机器翻译。



其中,既可以定制翻译记忆库又可以定制术语的机器翻译有7个,分别是Amazon、Google Cloud、IBM Watson、Microsoft、Rozetta T-400、SYSTRAN和Ubiqus;有3个机器翻译可以定制翻译记忆库,但不提供术语定制服务,分别是Globalese、ModernMT和Yandex;2个机器翻译只可以定制术语,分别是百度和DeepL。从分析中可得,目前可提供定制化服务的机器翻译仍占少数。


(二)数据集的选择与清洗


报告详细介绍了数据集的选择标准和内容。本次评测的数据集选取的都是开源数据,在评测之前,先对数据集进行了过滤和清洗,清除了重复内容、标签、不完整符号、截断句段等,过短(少于4词)和过长的句子都被排除在外,但也考虑了口语体的特殊情况。

 

(三)行业领域划分



报告将所有句段根据行业领域进行了划分,共分为通用、金融、法律、医疗、娱乐、教育、信息技术、酒店服务和口语体共9个领域。与往年报告不同,2022年报告统一了各语言对、各行业领域的句段数量,在11个语言对的每个领域中,都各选取了500个句段,以便更加公平公正地评测机器翻译质量。


本篇文章首先对《2022年机器翻译评测报告》的数据集内容进行了概述,关于具体的评测方法、评测指标和评测结果将在下一篇文章中进行介绍和解读。


若您对机器翻译感兴趣,请继续关注我们的系列文章,一起探索如何针对不同行业、不同内容类型和不同语言对,选择最适合的机器翻译引擎!


欢迎点击“阅读原文”获取《2022年机器翻译评测报告》原文文档。


本文专家



  韩林涛   审核专家

  硕士生导师,任教于北京语言大学

  外国语学院高级翻译学院,担任本

  科翻译(本地化方向)专业负责人




转载请务必注明出处

版权所有,违者必究

                                                  



继续滑动看下一个
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存